Einfach, Einfacher, Ordnungsstatistik

| Back to Overview

Klassifikation

Anstatt stochastischen Konvergenzen wollen wir uns lieber mit den wirklich schweren Themen befassen. Klassifikation von Daten / Merkmalen.

Wir teilen sie einmal auf in:

  • Diskret
  • Stetig

und in:

  • Nominal: Das Merkmal z.B. Farbe, kann nicht geordnet werden, es kann nur unterschieden werden.
  • Ordinal: Das Merkmal z.B. Schulnoten kann verglichen werden, es kann also eine Ordnung hergestellt werden.
  • Metrisch
    • Kardinal: Das Merkmal ist vielfaches einer Grundeinheit. z.B. Fußballfelder bei Galileo (nicht immer aber anschaulich)
    • Intervall: Nullpunkt willkürlich, z.B. Temperatur
    • Ratio: Nullpunkt festgelegt, z.B. Länge, Kelvin

Statistik

Wir kriegen Werte x1,...,xnx_1, ..., x_n gegeben...

Ordnungsstatistik

Eine Ordnungsstatistik sind x(1),...,x(n)x_{(1)}, ..., x_{(n)} Werte, die nach Größe sortiert wurden. Z.B. x1=2,x2=1,x3=3x_1 = 2, x_2 = 1, x_3 = 3. Hierzu ist die Ordnungsstatistik: x(1)=x2=1,x(2)=x1=2,x(3)=x3=3x_{(1)} = x_2 = 1, x_{(2)} = x_1 = 2, x_{(3)} = x_3 = 3.

So können wir den Median einfach bestimmen:

  • n ungerade: x(n+12)x_{(\frac{n+1}{2})}
  • n gerade: [xn2,xn2+1][x_{\frac{n}{2}}, x_{\frac{n}{2} + 1}] (bei metrisch skalierten Daten einfach die Mitte nehmen)

Histogramm und Gruppen

Klassifiziere die Werte in Gruppen: l1,...,lkl_1, ..., l_k. Die Gruppen sind disjunkt. z.B. Wir haben Noten gegeben 1.0:5,1.3:2,1.7:11.0: 5, 1.3: 2, 1.7: 1 Dann nimmt man die Gruppen [1.0,1.3),[1.3,1.7),[1.7,2.0)[1.0, 1.3), [1.3, 1.7), [1.7, 2.0) und die beiden Randgruppen mit.

Dann gibt es die relative Häufigkeiten: für Gruppe 11 ist die relative Häufigkeit 58\frac{5}{8}, für Gruppe 22 28\frac{2}{8} und für Gruppe 33 18\frac{1}{8}.

Ein Histogramm ist dann einfach ein Balkendiagramm mit Höhe fibi\frac{f_i}{b_i} und Breite bib_i. Die Breite ist natürlich die Breite der Gruppe.

Wir können auch hier eine Häufigkeitsdichte oder Dichteschätzer Funktion notiert f^(x)\hat{f}(x) erstellen:

f^(x)={0x<1580.3x[1.0,1.3]280.3x(1.3,1.7]180.3x(1.7,2.0]0x>2.0\hat{f}(x) = \begin{cases} 0 & x < 1 \\ \frac{\frac{5}{8}}{0.3} & x \in [1.0, 1.3] \\ \frac{\frac{2}{8}}{0.3} & x \in (1.3, 1.7] \\ \frac{\frac{1}{8}}{0.3} & x \in (1.7, 2.0] \\ 0 & x > 2.0 \end{cases}

Der Erwartungswert ist dann ja einfach Mittelwert und Varianz kann mit Verschiebungssatz leichter sein.

Quantile

Das pp-Quantil ist der Wert xpx_p mit P(Xxp)=pP(X \leq x_p) = p.

  • npnp ganzzahlig: Jede Zahl aus [x(np),x(np+1)][x_{(np)}, x_{(np+1)}]
  • sonst: x˜p=xnp+1\~{x}_p = x_{\lfloor np \rfloor +1}

Qua r tile sind die Quantile: Q1=x˜0,25,Q2=x˜0,5,Q3=x˜0,75Q_1 = \~{x}_{0,25}, Q_2 = \~{x}_{0,5}, Q_3 = \~{x}_{0,75}

Boxplot

Aus Mittelwert / Erwartungswert, Median, Quartile, xmaxx_{max}, xminx_{min} macht man dann Grafik: